課程大綱

課程資訊

課程名稱	程式設計與資料科學導論 Introduction to programming for data science
開課學期	109-2
授課對象
授課教師	謝舒凱
課號	LING5505
課程識別碼	142 U0860
班次
學分	3.0
全/半年	半年
必/選修
上課時間	星期四7,8,9(14:20~17:20)
上課地點	博雅301
備註	A6:量化分析與數學素養總人數上限：120人

課程簡介影片
核心能力關聯	核心能力與課程規劃關聯圖
課程大綱
為確保您我的權利,請尊重智慧財產權及不得非法影印
課程概述	大數據 (Big Data) 的時代，數位資料累積與增長的速度已經遠遠倍增於人類史上的任何階段。這樣一種鉅量資料風潮,不僅改變了人文社會與自然科學研究的面貌，在各項產業也產生了分析資料輔佐決策的迫切需求。在此背景下，數位素養 (digital literacy) 已經成為現代公民必須具備的基本素養之一，近年來新興的資料科學家 (data scientist) 更成為當前最為熱門的行業之一。然而由於數據資料的發展，隨著社交媒體與社會網路的發展，非結構性的文本資料所佔比例已經遠超過結構性的表格性資料，使得文本的語言分析在資料科學發展中的角色顯得愈來愈重要，特別對於人文與社會科學的學生而言，更是開啟了一個結合數位科技與人文關懷的新的發展方向。本教程的設計，就是在這個動機之下，透過介紹語言學、文本分析知識結合統計計算，希望能夠刺激人文、社會、傳播或其他財務管理、法律、醫學等各領域學生之間的互動協作與學習，培養跨領域的興趣與分析能力。
課程目標	資料科學家的工作, 可以視為是一個探索、預測與解讀資料意義的互動歷程。而語言分析的工作, 在了解文本資料的語意與情緒表現上是重要的關鍵。本課程結合了目前統計程式設計與自然語言處理技術, 以較為簡潔容易入門的設計與實際操作導引, 希望可以讓毫無相關程式學習基礎的學生在本課程的帶領下, 達到以下的學習目標: - 了解結構與非結構性資料的特性與預處理工作, 特別是針對中文文本中呈現的語言特性的處理方法。 - 了解中文的語言特性與文本解析 (text analytics) 的基本概念。 - 選擇適當的變數與特徵並加以合理調製, 對之進行描述統計與視覺探勘, 針對不同的問題點與數據類型, 找出適當的圖形表達與統計分析。 - 學習簡易的自然語言處理與機器學習預測模式, 並應用在自己關心的領域。
課程要求	● 上課方式分為兩部分:針對每週主題有 1.5 個小時的課堂講解，與 1.5 小時的實作教學與練習。每次上課都會分派作業，以階段性的題組一步一步的累積相關知識。每次作業預估的工作量約每週 3-4 小時。所有學習活動的進度、歷程與成果都在網路平台上, 一方面老師與助教容易掌握, 同學之間也可彼此觀摩學習。 ● 成績評量項目與方式：課後作業與課堂表現 (30%)；期中評量 (20%)；期末計畫展演、組織與報告 (50%)。 ● 期中進行第一次個人評量。期末專案 Capstone Project 以 5 人左右的小組為單位進行。我們將邀請語言科技與資料科學新創公司團隊來擔任評審，也增進同學對於如何進行知識應用的了解。計畫展演的方式將以開放、聯合其他相關課程聯展的方式進行，由各組同學彼此協調與自行執行資料科學專案，藉此練習學習、組織與團隊協作的翻轉學習精神，並與其他相關課程同學有機會互動。
預期每週課後學習時數
Office Hours
指定閱讀
參考書目	教師自行準備之教材與 DataCamp 線上合作開放課程
評量方式 (僅供參考)

課程進度

週次	日期	單元主題
無資料